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Семейство суперкомпьютеров с динамической 
архитектурой — концептуальные основы 


В статье рассматривается архитектура и основные характеристики нового типа суперкомпьютеров, 
основанных на теории Динамических Автоматных Сетей (ДАС) и идеологии ранее разработанных 
Мультипроцессоров с Динамической Архитектурой (МДА), позволяющих конструировать высокоэффек- 
тивные и надёжные вычислительные системы в широком диапазоне производительности. Приводятся 
характеристики некоторых технических и программных решений. 


Введение 


Целью данной работы является разработка концептуальных основ и некото- 
рых технических решений для реализации семейства Суперкомпьютеров с Динами- 
ческой Архитектурой (СДА) в широком диапазоне производительности — от 2—6 
терафлопс до десятков и сотен петафлопс, с автоматизацией распараллеливания прог- 
рамм, при этом архитектура СДА ориентирована не на конкретные аппаратные ре- 
шения, но на структуру выполняемой задачи. 

На основе теории динамических автоматных сетей (ДАС), разработанной в ла- 
боратории распределённых вычислительных структур Санкт-Петербургского инсти- 
тута автоматики и автоматизации РАН в 80-х годах [1], [2], в конце 80-х и в середине 
90-х годов прошлого века был разработан ряд образцов мультипроцессоров с дина- 
мической архитектурой (МДА). 

Существенный прогресс в области элементной базы, в частности появление и 
постепенное совершенствование ПЛИС, позволяет на данном этапе перейти к раз- 
работке и реализации суперкомпьютеров с динамической архитектурой (СДА), сох- 
раняющих основные достоинства МДА, но в то же время позволяющих достичь 
уровня, сопоставимого с наиболее мощными современными суперкомпьютерами из 
списка «Тор-500», или даже превышающего их по производительности. 


Динамические автоматные сети 
как концептуальная основа МДА и СДА 


Любая программа (или любой вычислительный процесс) в МДА (или СДА) 
представляется в виде динамической автоматной сети (ДАС), элементами (узлами) 
которой являются автоматы, реализующие функции семи основных классов программ- 
ных структур: операторы, данные, отношения, ссылки, ресурсы, типы и структуры 
(подсети), в каждом классе может существовать некоторое множество конкретных типов. 
Каждый автомат может изменять свои связи с окружающими его автоматами, по- 
рождать новые автоматы, а также самоуничтожаться после завершения выполнения 
своих функций. Класс и тип автомата определяет не только его функции, но и особен- 
ности поведения в сети и воздействия на сеть. 
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На уровне программирования автоматы представляются объектами, реализуемы- 
ми на специальном графическом объектно-ориентированном языке программирования 
ЯРД [3]. Программа на этом языке является не алгоритмом, т.е. заранее определён- 
ной последовательностью действий, а всего лишь описанием начальной структуры 
сети (и входящих в неё подсетей), а также правил её преобразования, впрочем, основная 
часть этих правил изначально заложена в свойствах объектов (автоматов) разных 
классов и в большинстве случаев не требует дополнительных описаний (если только 
некоторый объект не обладает какими-то особенными свойствами и поведением в 
сети, которые требуют дополнительных описаний). 

В процессе вычислений ДАС постоянно изменяет свою конфигурацию, генери- 
руются (порождаются) новые автоматы, уничтожаются автоматы, выполнившие 
свою функцию, могут изменяться связи между автоматами, а также автоматы могут 
изменять свой собственный тип и класс, не говоря уже о значениях данных, их струк- 
туре и объёме. Это называется автотрансформацией ДАС. Но в любой момент вычисли- 
тельного процесса текущее состояние ДАС соответствует структуре задачи на дан- 
ном этапе её решения (т.е. некоторому множеству объектов и связей между ними), 
таким образом архитектура МДА/СДА динамически подстраивается под структуру 
решаемой задачи, причём каждому объекту (автомату) в процессе выполнения сопостав- 
ляется некоторый виртуальный процессор. 

В идеале для каждого объекта программы (автомата) должен динамически соз- 
даваться процессор с единственной функцией, соответствующей свойствам данного 
объекта (например, функция процессора, соответствующего автомату класса «дан- 
ные», — всего лишь хранение некоторых значений и описаний их типов, структур, 
свойств и состояния, т.е. это — некоторый объём памяти и некоторая структура дан- 
ных, а функция объекта класса «оператор», типа «скалярное умножение векторов», — 
это совокупность умножителя, сумматора и некоторой достаточно простой управля- 
ющей схемы). После выполнения своей функции (например, данные уже не нужны 
для продолжения решения или оператор скалярного умножения выполнил свою функ- 
цию) соответствующий процессор уничтожается, а на его месте (в смысле физической 
аппаратуры) может быть создан новый процессор для выполнения других функций, 
присутствующих в программе. 

На практике в настоящее время вполне возможна реализация таких виртуаль- 
ных процессоров посредством динамического перепрограммирования ПЛИС, на основе 
которых они и реализуются, однако пока такой процесс не обеспечивает достаточ- 
ной эффективности (время перепрограммирования ПЛИС сопоставимо со временем 
выполнения функции конкретного виртуального процессора), поэтому на данном этапе 
перепрограммирование процессоров возможно эффективно реализовать только на 
стадии загрузки очередной задачи в систему. В этом случае ПЛИС перепрограмми- 
руются на некоторый набор операторных (процессорных) функций, соответствую- 
щий конкретной задаче, на требуемую для данной задачи разрядность и форму 
представления чисел или других данных, например, на логические, текстовые опера- 
ции и данные или арифметические операции с фиксированной или плавающей точ- 
кой, и на числа с разрядностью 8, 16, 32, 64 бит или более, если это необходимо для 
решения конкретной задачи. 

Управление процессом распараллеливания и параллельного выполнения задачи 
определяется типом и состоянием объектов программы (автоматов), а распределение 
вычислений между аппаратными ресурсами (вычислительными модулями) — свойст- 
вами коммугационной подсистемы, которая обеспечивает «интеллектуальную маршру- 
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тизацию». Любой объект программы (автомат) и соответствующий ему виртуальный 
процессор может быть направлен для выполнения своих функций в любой вычисли- 
тельный модуль системы, при этом будут учитываться как параметры загрузки про- 
извольного модуля (процессора), так и наличие, пропускная способность и текущая 
загрузка любых возможных путей связи между вычислительными модулями. В лю- 
бом случае выбирается оптимальный путь передачи данных и программ (виртуаль- 
ных процессоров) между модулями. 


Отличительные особенности вычислительных 
систем с динамической архитектурой 


Основными особенностями МДА/СДА (далее везде используется аббревиатура 
СДА, подразумевающая в то же время соблюдение основных принципов МДА), 
отличающими их от других мультипроцессорных систем, являются: 

— существенное (в десятки раз) уменьшение объёма аппаратуры, энергопотребления 
и стоимости при сопоставимых характеристиках производительности; 

— представление программ не в виде алгоритма, а в виде сети из объектов; 

— автоматическое динамическое распараллеливание задач, не требующее вмешатель- 
ства программиста, при этом программист освобождается и от необходимости учиты- 
вать в программе количество и характеристики имеющихся в системе вычислительных 
ресурсов; 

— полностью децентрализованное и асинхронное управление параллельными вычисли- 
тельными процессами; 

— аппаратное разделение функций вычисления (исполнения), управления и коммута- 
ции между соответствующими процессорами (ИП - исполнительный процессор, УП — 
управляющий процессор и КП — коммутационный процессор), которые имеются в 
каждом вычислительном модуле (ВМ), что существенно увеличивает эффективность 
вычислений, поскольку ИП освобождается от выполнения управляющих и коммута- 
ционных функций; 

— крайне малый объём (десятки килобайт) операционной системы, часть функций 
которой реализуется аппаратно, а часть представлена методами объектов программы; 
— наличие высокоскоростных многоразрядных каналов связи между вычислитель- 
ными модулями, обеспечивающих благодаря интеллектуальным функциям КП автома- 
тическую многовариантную маршрутизацию потоков данных и программ [4]; 

— отсутствие ограничений на количество аппаратных ресурсов, включая и вычисли- 
тельные модули, что позволяет неограниченно масштабировать систему без внесе- 
ния каких-либо изменений как в системное программное обеспечение, так и в прик- 
ладные программы; 

— высокая надёжность вычислений и информационная безопасность — решение зада- 
чи завершается даже при множественных отказах ВМ, следствием которых является 
только некоторое уменьшение производительности, а специальная система адреса- 
ции программных объектов не допускает несанкционированного доступа к объектам 
программы, что практически исключает возможность существования вирусов и дру- 
гих вредоносных программ [5], [6]. 

Остановимся на некоторых из вышеперечисленных особенностей, играющих 
ведущую роль в достижении столь высоких характеристик СДА. Те вопросы, которые 
ниже не рассматриваются, рассмотрены в публикациях, на которые имеются ссылки. 
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В первую очередь, возникает естественный вопрос: «Каким образом достигается 
столь существенное уменьшение габаритов, энергопотребления и стоимости?». Прежде 
всего это достигается за счёт более полного использования аппаратуры в каждый мо- 
мент времени выполнения вычислительного процесса. 

Во-первых, в системе не используются типовые процессоры, архитектура кото- 
рых весьма сложна, но значительная часть аппаратуры которых либо выполняет вспомо- 
гательные функции (дешифрация сложных по структуре команд, организация конвей- 
еров, кэш-памяти, предсказание переходов и многое другое), либо не используется 
при выполнении некоторой конкретной операции, поскольку сложная универсальная 
система команд таких процессоров предполагает и наличие арифметического устрой- 
ства (АУ) большой сложности, значительная часть которого в каждый конкретный 
момент времени простаивает. 

В СДА для каждой конкретной задачи (или даже фрагмента задачи) создаётся вир- 
туальный исполнительный процессор, содержащий в АУ только те фрагменты схем, 
которые способны выполнять ограниченный набор операций, необходимых в данной за- 
даче, и только для используемых в данной задаче типов и разрядностей данных. Таким 
образом, в каждый момент времени выполнения вычислительного процесса, оказывается 
загруженной большая часть аппаратуры, в то же время вспомогательные функции край- 
не просты и не используют сколько-нибудь существенной части аппаратуры. 

Во-вторых, разделение функций между специализированными ИП, УП и КП 
освобождает более сложный ИП от выполнения функций организации вычислитель- 
ного процесса, обеспечивая максимальную загрузку аппаратуры ИП, в то время как 
функции УП и КП достаточно просты и они не занимают большого объёма аппа- 
ратуры, при этом они работают параллельно с ИП. 

В-третьих, использование относительно дешёвых ПЛИС, к тому же работаю- 
щих на сравнительно невысоких тактовых частотах (в пределах 200 — 400 МГц), су- 
щественно понижает и стоимость системы в целом, и энергопотребление, и, что важно, 
существенно снижает требования к системе охлаждения. 

Тогда, естественно, возникает вопрос, каким образом многопроцессорная сис- 
тема, работающая на столь низких по современным понятиям частотах, способна 
достичь столь высоких результатов в производительности? Здесь следует обратиться 
к самой природе, которая создала столь компактный (всего около 1,5 литров объёма), 
универсальный и совершенный «суперкомпьютер», как человеческий мозг, который, 
работая на частотах на несколько порядков меньших, чем используемые в совре- 
менной вычислительной технике, тем не менее способен практически мгновенно 
выполнять столь сложные и интеллектуальные задачи, как распознавание образов, 
анализ сцен, принятие решений, ориентация в пространстве, управление движением 
сложного по структуре тела и многие другие задачи, которые явно не по силам 
самым современным суперкомпьютерам (и роботам). Конечно, СДА не претендует 
пока на соревнование с возможностями мозга, однако основной структурный прин- 
цип — наличие большого количества параллельно работающих простых по структуре 
процессоров (как в мозге — нейронов) — здесь в какой-то мере соблюдается. 

Следующий вопрос, который может возникнуть у читателя, — каким образом 
достигается столь малый объём операционной системы (ОС)? На самом деле функ- 
ции любой современной ОС разделяются на несколько частей: управление вычисли- 
тельными процессами (в данном случае — параллельными), управление внешними 
устройствами (включая и накопители на разного рода дисках), человеко-машинный 
интерфейс (в том числе графическое или текстовое отображение информации на 
экране монитора, реакция на интерфейсные устройства — клавиатуру и мышь) и т.д. 
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В СДА реализуется только первая из перечисленных функций, а остальные 
возлагаются на «хост-машину», т.е. на обычную ПЭВМ, выполняющую по сути 
функцию «интеллектуального терминала», которая может работать под управлением 
любой из существующих ОС — \тдо%з, Глпих и т.п. Внешние устройства не подсое- 
диняются непосредственно к вычислительным модулям СДА, соответственно не 
нужно управление этими устройствами (т.е. не нужны какие-то специфичные драй- 
веры), не нужна и обработка прерываний (в самих модулях СДА прерывания не 
используются — как аппаратные, так и программные). В то же время сами функции 
управления распараллеливанием вычислительного процесса и выполнением отдель- 
ных ветвей этого процесса, выполняемые в соответствии с моделью ДАС, крайне 
просты и в значительной мере могут быть выполнены аппаратным способом в виде 
соответствующих функций УП и КП. Кроме того, на хост-машине могут быть 
выполнены части программы, некритичные к производительности и не требующие 
параллельного выполнения. 

И, наконец, ещё один вопрос, который следует рассмотреть, — каким образом 
может быть организовано неограниченное количество аппаратных ресурсов (моду- 
лей) и соответственно неограниченное масштабирование системы. Каждый ресурс 
СДА (вычислительный модуль, блок памяти и т.д.) имеет однозначную адресацию 
(нумерацию), выраженную одним 32-разрядным машинным словом, либо последова- 
тельностью таких слов. Для собственно адресации используется 31 младший разряд, 
а старший разряд 32-разрядного слова содержит признак того, является ли оно 
(слово) последним в «адресе» (0) либо за ним следует продолжение (1). Но и одного 
такого слова достаточно для нумерации 2°' аппаратных ресурсов, что составляет бо- 
лее 2 миллиардов, явно в обозримом будущем какая-либо вычислительная система 
вряд ли будет обладать таким количеством ресурсов (модулей, процессоров), даже с 
учётом малого объёма процессоров СДА. 


Некоторые вопросы реализации СДА 


Основой реализации любого варианта СДА является так называемый «техно- 
логический модуль» (ТМ), в рассматриваемом варианте состоящий из шести плат, 
конструктивно объединённых в виде «этажерочной конструкции». 

Три платы — одинаковы и содержат по 32 исполнительных модуля (ИМ), 
выполненных на основе ПЛИС «АЖега Сусоп». Каждый ИМ включает в себя ИП и 
КП, реализованные в рамках одной ПЛИС. 

Одна плата является управляющим модулем (УМ) и включает в себя управляю- 
щий процессор (УП) и 4 ИМ. Каждый ИМ, а также УП и ИМ снабжены памятью 
объёмом не менее 128 Мб на процессор (все блоки памяти независимы и предназ- 
начены для использования только одним процессором). Кроме того, имеются две 
небольшие вспомогательные платы (источники питания и пр.). 

Каждый ИМ и УП имеют по 4 высокоскоростных канала для связи с соседними 
модулями. Пропускная способность канала — 3,6 Гбайта в секунду при разрядности 
32 бита. 

Кроме собственно вычислительных модулей с динамической архитектурой, 
каждый ТМ имеет в своём составе ЗОМ (Зужет Оп Моде) и жёсткий диск (вин- 
честер) с ёмкостью не менее 500 гигабайт, которые конструктивно присоединяются 
к плате управляющего модуля. ЗОМ может выполнять функции хост-машины, а 
также отчасти выполнять нераспараллеливаемые части программы. К основным 
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функциям ЗОМ также относится управление внешними устройствами, которые мо- 
гут быть к нему присоединены как к хост-машине, но главным образом это — управ- 
ление жёстким диском. 

Таким образом, каждый ТМ содержит один ОМ, 100 исполнительных мо- 
дулей (процессоров) и один УП с общей ёмкостью оперативной памяти более 13 ги- 
габайт и 500 гигабайт памяти на жёстком диске. Кроме этого, в состав УМ входит 
флеш-накопитель ёмкостью 16 Гб, присоединённый к УП и предназначенный для 
первичной настройки ПЛИС, и два порта ОЗВ для связи между ТМ и с внешней сре- 
дой. Охлаждение ТМ обеспечивается обычными вентиляторами, при включении в сис- 
тему большого количества ТМ дополнительно может использоваться кондиционер. 

Такой ТМ имеет размеры 240 х 220 х 80 мм, что по объёму примерно соответ- 
ствует двум положенным рядом строительным кирпичам, при этом он имеет произво- 
дительность -— 2 — 6 терафлопс на соответственно 64/32-разрядной арифметике с пла- 
вающей точкой (и он уже является вполне самостоятельным, полнофункциональным 
и законченным многопроцессорным компьютером). Один или несколько ТМ могут 
составить настольный вариант СДА с производительностью от 2 терафлопс до несколь- 
ких десятков терафлопс. 

Любое количество ТМ может быть объединено в систему сколь угодно боль- 
шой производительности, вплоть до сотен петафлопс (изменяются только конструк- 
тивные решения и система охлаждения -— в этом случае требуемое множество ТМ 
располагается в соответствующих стойках, а к системе охлаждения обычными венти- 
ляторами добавляется кондиционер), при этом не нужно вносить никаких изменений 
в программы, операционную систему и другие составляющие системы. То есть любая 
конфигурация СДА строится из ТМ как любое строение из кирпичиков. Таким обра- 
зом, вопрос реализации суперкомпьютера с динамической архитектурой любой произ- 
вольной мощности является лишь вопросом финансовых вложений. Но в любом случае, 
при равной производительности по сравнению с наиболее мощными суперкомпью- 
терами из списка Тор-500, СДА будет как минимум на порядок дешевле. 

В отличие от ранее реализованных вариантов МДА, в СДА имеется только 
один управляющий процессор на 100 ИМ, в то время как в прежних вариантах УП 
имелся в каждом вычислительном модуле. Это связано с тем, что функции УП дос- 
таточно просты и при современных характеристиках производительности ПЛИС его 
мощности вполне достаточно для выполнения своих функций по отношению к ука- 
занному множеству ИМ. 

Ещё одно отличие СДА от ранее реализованных вариантов МДА заключается в 
возможности использования для программирования типовых языков программиро- 
вания, например «С» или ЕОКТКАМ, при этом для критических для распараллелива- 
ния участков программы создаётся специальная библиотека процедур, которые и 
выполняются на СДА. Именно таким образом может быть реализована вполне стан- 
дартная программа теста ГлирасКк, в котором все некритичные к уровню произво- 
дительности фрагменты программы выполняются либо на хост-машине, т.е. на 
обычной ПЭВМ, к которой могут быть подключены и ТМ, либо на ЗОМ, входящих в 
состав ТМ. Те же фрагменты программы, которые требуют распараллеливания и 
высокой производительности, будут оформлены в виде соответствующих библиотеч- 
ных функций, выполняемых на модулях СДА. Они могут быть написаны как на 
языке ЯРД (и в соответствующем виде загружаться в модули СДА), так и любым 
другим способом, позволяющим описать программу (процедуру), реализующую соот- 
ветствующие параллельные вычисления посредством перепрограммирования ПЛИС 
и выполнения на них соответствующих фрагментов программы. 
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Заключение 


Рассмотренные в данной статье концепция и архитектура СДА позволяют созда- 
вать суперкомпьютеры любой вычислительной мощности от 2 — 6 терафлопс до десят- 
ков и сотен петафлопс, существенно превышающие по своим параметрам (геометри- 
ческому объёму, энергопотреблению, стоимости) существующие суперкомпьютеры 
при сопоставимой производительности. 

При этом обеспечивается высокая надёжность работы системы в целом, незави- 
симо от возможных отказов оборудования, независимость программного обеспечения 
от конкретной конфигурации системы, защищённость системы от несанкциониро- 
ванного доступа, автоматическое распараллеливание программ и другие существен- 
ные преимущества. 
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См?я суперкомп’ютерв з динамчною архтектурою — концептуальн! основи 

У статт! розглядаеться архтектура й основн! характеристики нового типу суперкомп’ютертв, заснова- 
них на теорй Динам!чних Автоматних Мереж (ДАМ) й1деологй ранйпе розроблених Мультипроцесорв 
з Динам!чною Архтектурою (МДА), що дозволяють конструювати високоефективн! та надйн! обчислю- 
вальн! системи у широкому д1апазон! продуктивност!. Наводяться характеристики деяких техн!чних 1 
програмних ришень. 
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